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大 数据 为 安全 生产 保驾 护航 


摘 要 : 大 数据 时 代 的 到 来 ， 各 类 信息 快速 传播 ， 利 用 海量 数据 和 处 理 海量 数据 规范 化 为 各 行业 带 来 了 巨大 的 收益 ， 促 进 了 


经 济 社会 的 快速 发 展 。 安 全 生产 与 经 济 社会 发 展 密切 相关 ， 提 升 大 数据 技术 在 安全 生产 领域 的 应 用 能 力 至 关 重 要 。 
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文 / 张 洪福 


所 谓 安全 生产 ， 是 指 在 生产 经 营 活动 中 ， 为 了 避免 
造成 人 员 伤 害 和 财产 损失 的 事故 而 采取 相应 的 事故 预防 
和 控制 措施 ， 使 生产 过 程 在 符合 规定 的 条 件 下 进行 ， 以 
保证 从 业 人 员 的 人 身 安 全 与 健康 , 设备 和 设施 免 受 损坏 ， 
环境 免 遭 破坏 ， 保 证 生产 经 营 活动 得 以 顺利 进行 的 相关 
活动 。 最 近 几 年 ， 许 多 生产 企业 将 大 数据 应 用 到 自身 的 
经 营 管理 之 中 ， 重 视 大 数据 在 安全 生产 中 的 应 用 价值 。 
1. 大 数据 对 安全 生产 的 影响 
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相关 政策 制定 。 中 国安 全 生产 报社 拥有 大 量 的 数据 支撑 ， 

对 基础 数据 内 容 进 行 分 析 ， 便 于 对 多 因素 影响 下 事态 的 

发 展 以 及 在 趋势 方式 下 制定 最 适宜 的 安全 举措 。 最 后 是 

有 利于 整个 安全 生产 领域 的 管理 推进 和 实施 。 中 国安 全 

生产 报社 经 过 有 效 处 理 海量 的 基础 性 数据 ， 对 如 何 安全 

管理 已 有 系统 性 的 研究 。 

2. 基于 大 数据 助力 安全 生产 

2. 1 大 数据 积累 : 准确 、 全 面 地 收集 数据 是 大 数据 的 基础 
首先 要 充分 利用 已 有 数据 。 包括: 各 地 记者 站 稿件 、 


《中 国安 全 生产 报 》2001 年 10 月 11 日 创刊 ， 是 国 
内 安全 生产 领域 唯一 综合 性 报纸 , 是 传递 党 中 央 、 国 务 院 、 
国家 安全 生产 监督 管理 局 、 各 行业 主管 部 门 、 各 地 方 政 
府 对 安全 生产 工作 各 个 阶段 工作 部 署 的 重要 媒介 ; 是 安 
全 生产 专业 信息 咨询 和 交流 的 权威 平台 和 安全 生产 理论 
荣 寻 、 安 全 文化 建设 的 主 阵 地 ; 是 各 级 安 监 干部 工作 的 
良师益友 。 作 为 安全 生产 领域 权威 主流 媒体 有 着 深远 的 
影响 力 ,能够 汇聚 行业 内 的 各 种 数据 资源 ,数据 资源 包括 : 


民众 投稿 、 专 家 约 稿 、 企 业 安 全 生产 数据 、 政 府 安全 监 
管 数 据 、 调 查 报告 、 安 全 生产 相关 法 律 知 识 、 安 全 生产 
管理 知识 、 安 全 生产 技术 等 。 

其 次 是 充分 利用 互联 网 数据 。 随 着 网 络 应 用 技术 的 
发 展 ， 网 络 信息 呈现 出 一 定 的 “ 异 构 ” 特 点 。 网 络 信息 
仍 以 HTTP 为 网 络 传输 协议 ， 以 HTML 为 展示 格式 ,但 
随 着 互联 网 社区 化 的 发 展 和 Web 2.0 的 崛起 ， 网 页 所 列 
含 的 内 容 发 生 了 深刻 的 变化 。 原 来 以 网 站 / 网 页 内 容 为 主 


各 地 记者 站 稿件 、 民 众 投 稿 、 专 家 约 稿 、 企 业 安 全 生 疡 
数据 、 政 府 安全 监管 数据 、 调 查 报告 、 安 全 生产 相关 法 
律 知 识 、 安 全 生产 管理 知识 、 安 全 生产 技术 等 。 作 为 大 
数据 而 言 , 除了 内 部 数据 积累 , 还 应 充分 利用 互联 网 数据 ， 
结合 大 数据 手段 对 安全 生产 领域 信息 快速 抓 取 和 分 析 。 
完善 生产 中 的 数据 与 资料 ， 从 大 数据 中 不 断 探索 其 中 规 
律 。 

同时 ，2015 年 4 月 2 日， 国务 院 办 公 厅 印发 《国务 
院 办 公 厅 关于 加 强 安全 生产 监管 执法 的 通知 》, 通知 指出 ， 
要 大 力 提升 安全 生产 “大 数据 ”利用 能 力 ， 加 强 安 全 生 
产 周期 性 、 关 联 性 等 特征 分 析 , 做 到 检索 查询 即时 便捷 、 
归纳 分 析 系统 科学 , 实现 来 源 可 查 、 去 向 可 追 、 责 任 可 究 、 
规律 可 循 。 中 国安 全 生产 报社 发 挥 自身 优势 ， 利 用 大 数 
据 技 术 开 展 安全 生产 工作 ， 应 用 价值 在 多 个 方面 都 能 够 
有 所 体现 。 首 先是 对 安全 生产 领域 监察 的 敏感 性 强 ， 分 
析 基 础 数据 可 知 哪些 安全 生产 行业 或 某 个 安全 生产 行业 
哪个 环节 易 发 生 安全 问题 。 其 次 是 有 利于 安全 生产 领域 


导 的 互联 网 ， 逐 渐 演 变 为 网 站 、 论 坛 ( 社区) 、 博 客 、 
微 博 等 信息 共存 的 局 面 。 微 信 、 论 坛 、 博 客 、 微 博 上 蕴 
含 的 大 量 信息 已 经 成 为 互联 网 上 重要 的 信息 组 成 部 分 。 
网 民 们 可 以 在 这 些 自 媒体 平台 随时 随地 发 表 他 们 所 见 所 
闻 的 安全 生产 事件 或 对 某 个 安全 生产 事件 的 态度 看 法 等 。 
这 些 自 媒体 平台 互动 性 强 ,， 信 息 传播 快 ， 癸 然 成 为 一 个 
与 论 放大 絮 。 而 且 对 安全 生产 领域 来 说 ,论坛 、 微 博 、 
微 信 上 的 信息 比 普通 网 站 上 的 信息 具有 更 重要 的 使 用 价 
值 。 安 全 生产 事故 ， 如 燃气 爆炸 、 坦 塌 事 故 、 火 灾 、 沉 船 、 
重大 车 祸 等 信息 ， 都 是 通过 论坛 、 微 博 、 微 信 等 渠道 第 
一 时 间 传 播 的 。 另 外 , 一些 安全 生产 隐患 ， 如 煤气 泄漏 、 
安全 漏洞 、 火 灾 隐 患 等 ， 网 民 可 以 通过 互动 的 形式 告知 
安 监 总 局 、 安 全 生产 报社 等 单位 ， 在 事故 发 生 之 前 及 时 
处 理 ， 减 少 人 民生 命 财产 损失 ， 具 有 重大 意义 。 

安全 生产 大 数据 的 要 求 是 对 互联 网 上 的 有 效 信息 进 
行 采集 和 利用 ,但 目前 的 数据 采集 技术 主要 是 面向 网 站 
和 网 页 的 收集 和 采集 , 不 能 有 效 解决 论坛 (社区 ) 、 博 客 、 


站 36 | 研究- 技术 与 应 用 


202310.02234v1 


chinaXiv 


微 博 、 微 博 的 采集 和 更 新 间 题 .对 于 安全 生产 大 数据 来 说 ， 
最 终 建设 的 应 该 是 全 面 的 信息 收集 机 制 ， 有 效 信息 遍布 
于 论坛 、 博 客 、 微 博 、 微 信 等 载体 上 。 针 对 安全 生产 行 
业 特 点 和 业务 领域 ,选择 神华 集团 、 中 石油 、 中 石化 等 
同类 企业 或 同行 企业 的 安全 生产 事件 进行 素材 的 收集 ( 如 
央 国 企 新 闻 发 言 稿 等 ) ， 历 年 全 国 各 地 发 生 的 安全 生产 
事故 信息 等 。 主 要 包括 过 往 案例 、 对 外 宣传 稿 、 分 析 报 
告 等 ， 按 照 事 故 命 名 、 发 生 时 间 、 地 点 、 程 度 级 别 、 事 
故 类 型 、 伤 亡 人 数 、 死 亡 人 数 等 属性 特征 进行 分 类 ， 并 
可 设 定 相 关 报 道 的 媒体 范围 ， 同 时 采集 与 事故 相关 的 互 
联网 信息 ， 形 成 安全 生产 大 数据 的 数据 支撑 。 

据 国 家 安全 生产 监督 管理 总 局 官网 数据 显示 ，2017 
年 1~7 月 ， 全 国共 发 生 各 类 生产 安全 事故 27478 起 ， 死 
亡 19783 人 。 其 中 ， 较 大 事故 377 起 ,死亡 1442 人 ; 重 
大 事故 17 起 ,死亡 225 人 ， 同 比 增加 1 起 等 。 及 时 获取 
这 些 信息 , 有 利于 相关 部 门 了 解 事件 态势 , 尽早 合理 决策 ， 
避免 不 良 影响 扩大 化 。 
2. 2 自然 语言 处 理 : 让 机 器 更 懂 人 类 ， 提 高 关联 性 等 特征 
分 析 

随 着 人 工 智能 的 大 热 ， 国 内 各 大 企业 开始 纷纷 布局 
人 工 智能 领域 ， 并 打造 出 各 种 不 同 的 智能 终端 ， 比 如 人 
工 机 器 人 、 无 人 驾驶 汽车 、 智 能 电视 、 智 能 冰箱 …… 这 
些 智 能 终端 有 一 个 共同 的 特点 一 一 不 但 能 读 懂 人 类 语言 ， 
还 能 与 人 类 交流 ， 同 时 ， 还 能 进一步 完成 人 类 所 下 达 的 


如 此 神奇 的 技术 是 如 何 实现 的 呢 ? 这 要 归功 于 人 工 
智能 领域 一 项 核心 的 处 理 技术 一 一 NLP。NLP (Natural 
Language Processing ) ， 即 自然 语言 处 理 ， 它 是 研究 人 与 
计算 机 交互 的 语言 问题 的 一 门 学 科 ， 也 是 人 工 智能 一 个 
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技术 。 

先进 的 技术 需要 与 行业 进行 深度 结合 ， 才 能 实现 
更 大 的 价值 。 自 然 语言 处 理 技术 可 以 实现 对 安全 生 F 
大 数据 的 分 析 处 理 ， 建 立 符合 行业 特色 的 安全 生产 知 
识 库 ， 包 括 安 全 生产 案例 库 、 安 全 生产 口径 库 、 关 键 
词 库 、 媒 体 库 及 敏感 词 库 、 专 业 领 域 知识 库 等 ， 形 成 
知识 的 积累 。 

安全 生产 案例 库 : 首先 ， 利 用 采集 的 行业 数据 ， 经 
过 自然 语言 的 解析 和 人 整理， 自动 从 大 规模 行业 语 料 中 控 
据 专 业 术 语 和 新 闻 , 快速 构建 行业 词典 , 构建 行业 语料库 。 
同时 ， 通 过 多 个 行业 语料库 的 采样 和 综合 ， 构 建 通 用 语 
料 库 。 语 料 预 处 理 中 对 语 料 分 块 ， 并 进行 分 词 、 命 名 实 
体 识别 ， 然 后 进行 串 频 统 计 、 子 串 归 并 操作 ， 再 分 别 通 
过 横向 对 比 和 纵向 递 进 的 方法 进行 行业 术语 和 行业 短语 
挖掘。 可 实现 数据 内 容 过 滤 ， 多 语种 识别 和 自动 转 码 、 
自动 分 词 、 自 动 分 类 、 自 动 聚 类 、 自 动 热点 发 现 、 相 似 
检索 、 文 章 排 重 、 自 动 摘要 、 重 点 信息 抽取 等 功能 。 案 
例 库 本 着 科学 、 实 用 的 原则 ， 对 每 个 安全 生产 事件 的 特 
征 都 进行 了 全 方位 的 剖析 ， 既 包括 该 事件 的 发 展演 变 过 
程 、 网 上 民意 演变 过 程 图 表 ， 也 包括 在 事件 过 程 的 各 个 
阶段 中 网 络 上 各 种 不 同 观点 、 看 法 的 所 占 比 重 和 典型 观 
点 的 摘编 。 可 按照 事故 命名 、 发 生 时 间 、 地 点 、 程 度 级 别 、 
事故 类 型 、 伤 亡 人 数 、 死 亡 人 数 等 属性 特征 进行 分 类 ， 
并 可 设 定 相关 报道 的 媒体 范围 。 业 务 人 员 可 通过 安全 生 
产 案例 库 浏览 、 查 询 和 下 载 案例 报 告 ， 利 用 过 往 的 应 对 
经 验 ， 并 结合 当前 实际 情况 ， 提 高 安全 生产 应 对 处 置 能 
力 。 安 全 生产 案例 库 是 长 期 研究 、 分 析 互 联网 及 行业 数 
据 积累 下 来 的 宝贵 资料 , 对 安全 生产 的 宣传 、 调 研 、 理论、 


重要 的 子 领域 。 简 单 来 说 ，NLP 是 让 机 器 “理解 ”人 们 
使 用 的 自然 语言 结构 和 意思 ， 将 自然 语言 翻译 为 机 器 语 
言 形式 ， 并 加 工 它 〈 总 结 、 句 法 分 析 等 ) ， 再 返回 给 用 
户 自然 语言 。 它 涉及 很 多 内 容 和 技术 ， 如 文本 朗读 /语音 
合成 、 语 音 识别 、 中 文 自动 分 词 、 词 性 标注 、 句 法 分 析 、 
自然 语言 生成 ,文本 分 类 、 信 息 检索 .信息 抽取 .文字 校对 、 
问答 系统 、 机 需 翻 译 、 自 动 摘要 、 文 字 列 洱 …… 


培训 等 有 一 定 的 参考 和 借鉴 价值 。 

安全 生产 口径 库 : 通过 自然 语言 处 理 技术 ， 可 为 安 
全 生产 口径 库 提供 技术 支撑 ,收集 并 分 类 细 分 历年 全 国 
发 生 的 安全 生产 事故 ,采集 相关 的 媒体 报道 ， 实 现 提 取 
涉 事 人 和 名、 地 名 和 机 构 名 称 的 功能 ， 同 时 可 自动 标识 是 
和 否 涉及 国务 院 、 安 监 总 局 或 各 地 安 监 局 ， 便 于 分 析 整 理 
各 级 监管 机 构 、 涉 事 企业 及 其 他 相关 部 门 的 处 理 意见 、 
回应 的 时 间 节 点 、 回 应 内 容 、 处 置 方法 等 。 可 以 及 时 、 


在 人 工 智能 发 展 之 初 ，NLP 技术 就 已 经 显示 出 巨大 
的 魅力 。1949 年 埃 德 蒙 ' 伯克利 (Edmund Berkeley ) 在 
他 出 版 的 《Giant Brains Or Machines That Think 》 一 书 中 曾 
写 道 : “最 近 出 现 许 多 消息 ,谈论 的 主题 是 奇怪 的 巨型 机 
器 处 理 信 息 ， 速 度 极 快 ， 技 能 很 强 …… 这 种 机 器 与 大 脑 相 
似 ， 由 硬件 和 线 缆 组 成 ， 而 不 是 血肉 和 神经 ， 机 器 可 以 处 
理 信 息 ， 可 以 计算 、 可 以 得 出 结论 ， 可 以 选择 ， 还 可 以 根 
据 信 息 执 行 合理 操作 。 总 之 ， 这 台 机 器 可 以 思考 。” 

作为 人 工 智能 核心 技术 之 一 ， 自 然 语 言 处 理 技 术 越 
发 受到 技术 公司 的 青睐 ， 在 国务 院 印 发 的 《新 一 代 人 工 
智能 发 展 规划 》 中 ， 自 然 语 言 处 理 技术 被 列 为 关键 共性 


全 面 、 准 确 地 掌握 各 种 信息 和 网 络 动向 ， 从 浩瀚 的 数据 
宇宙 中 发 据 事 件 苗头 、 归 纳 与 论 观点 倾向 、 掌 握 公 众 态 
度 情绪 , 并 结合 历史 类 似 事件 进行 趋势 预测 和 应 对 建议 。 
建立 完善 的 地 区 、 机 构 、 行 业 、 社 情 民意 的 分 类 体系 ， 
便于 进行 信息 共享 、 分 析 处 理 、 信 息 快 速 查找 ， 逐 步 形 
成 围绕 安全 生产 的 口径 知识 库 。 通 过 安全 生产 口径 库 的 
建设 ， 利 于 安全 生产 业务 人 员 熟 悉 掌握 政策 、 口 径 、 提 
升 自身 业务 素质 ， 也 有 利于 加 强 新 闻 宣传 工作 的 组 织 规 
范 性 和 整体 协作 效率 ， 降 低 信息 搜索 成 本 ， 提 高 信息 回 
应 的 针对 性 、 准 确 性 、 一 致 性 和 及 时 性 。 
2. 3 智能 语义 检索 : 做 到 检索 查询 及 时 便捷 
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以 自然 语言 理解 技术 为 基础 的 新 一 代 搜 索引 擎 ， 被 
称 为 智能 语义 检索 。 由 于 它 将 信息 检索 从 目前 基于 关键 
词 层面 提高 到 基于 知识 ( 或 概念 ) 层面 ， 对 知识 有 一 定 
的 理解 与 处 理 能 能 够 实现 分 词 技 术 、 同 义 词 技 术 、 
概念 搜索 、 短 语 识别 以 及 机 器 翻译 技术 等 ， 因 而 这 种 搜 
索引 敬 具 有 信息 服务 的 智能 化 、 人 性 化 特征 。 这 种 允许 
网 民 采 用 自然 语言 进行 信息 检索 , 将 为 他 们 提供 更 方便 、 
更 确切 的 搜索 服务 。 

安全 生产 行业 搜索 利用 智能 语义 检索 ， 能 够 比 通用 
搜索 提供 更 多 的 行业 相关 查询 方式 。 行 业 搜 索 应 提供 丰 
富 的 查询 手段 ， 包 括 自 动 分 类 、 普 通 检索 、 组 合 检索 、 
拼音 检索 、 相 关 短 语 检索 等 。 智 能 语义 检索 更 加 人 性 化 ， 
功能 也 更 强 ， 能 够 满足 行业 的 特殊 需求 。 在 搜索 应 用 开 
发 过 程 中 ,逐步 选择 适合 于 行业 应 用 的 查询 方式 。 
2.3.1 拼音 检索 

拼音 检索 的 主要 功能 是 提供 全 拼 检 索 、 简 拼 检索 、 
同音 检索 等 技术 ， 帮 助 用 户 快 速 有 效 地 检索 自己 所 需要 
的 内 容 。 

基于 串 频 统计 和 上 下 文 的 注音 技术 : 在 大 量 拼 音 语 
料 基 础 上 ,统计 汉字 串 和 拼音 串 的 分 布 规律 等 大 量 有 用 
信息 , 利用 基于 上 下 文 的 注音 算法 对 多 音 汉字 进行 注音 ， 
保证 了 注音 的 准确 性 。 

同音 检索 技术 : 支持 同音 检索 全 拼 检索 和 简 拼 检索 ， 
在 丰富 的 拼音 语料库 基础 上 ， 对 汉字 串 的 分 布 频率 进行 了 
统计 , 整理 出 高 频 汉 字 串 和 拼音 串 的 对 应 表 , 在 此 基础 上 ， 
保证 用 户 输入 的 拼音 串 对 应 的 一 定 是 最 可 能 的 汉字 串 。 

拼音 输入 校正 技术 : 利用 拼音 词典 和 相关 算法 实现 
输入 校正 。 
2.3.2 相关 短语 检索 

相关 短语 检索 的 主要 功能 是 ， 在 检索 过 程 中 ， 根 据 
用 户 输入 查询 ， 提 供 一 组 比较 常用 的 相关 查询 供用 户 参 
考 ， 向 用 户 提 供 高 质量 的 “查询 建议 ”， 方便 用 户 使 用 
搜索 系统 。 例 如 ,输入 “知识 ”， 提 示 “ 知 识 管 理 ”“ 知 
识 在 线 ”“ 知 识 经 济 ” 等 。 
3. 实现 短语 检索 的 关键 

一 是 相关 短语 匹配 技术 。 如 何 定 义 并 计算 短语 的 相 
关 性 是 个 很 有 挑战 性 的 问题 。 相 关 短语 匹配 技术 采用 了 
语义 词典 和 短语 语法 结构 相 结 合 的 方法 ， 计 算 短 语 之 间 
的 相关 性 ， 取 得 了 满意 的 效果 。 

二 是 相关 短语 词典 。 相 关 短 语词 典 是 相关 短语 检索 
的 基础 ,来 源 主 要 有 两 部 分 : 一 部 分 是 人 工整 理 的 短语 
相关 知识 ; 另 一 部 分 是 通过 数据 挖掘 技术 ， 从 搜索 引擎 
查询 日 志 中 获取 的 相关 短语 。 这样 既 保证 了 词典 的 规模 ， 
又 保证 了 词典 的 质量 。 新 华 搜 索 前 期 的 工作 已 经 形成 了 
包含 数 十 万 条 词 条 及 其 相关 短语 的 短语 词典 。 

三 是 高 频 查 询 词 典 。 主 要 来 源 是 在 长 期 积累 的 检索 
日 志 基 础 上 ， 整 理 并 统计 用 户 在 日 常 检 索 中 经 常 使 用 的 
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100 多 万 个 查询 。 如 果 用 户 输入 的 短语 不 包含 在 相关 短语 
词典 中 ， 则 使 用 相关 短语 匹配 技术 从 高 频 查 询 词典 中 检 
索 相 似 短语 。 

四 是 人 工整 理 和 数据 挖掘 方法 结合 构造 相关 短语 词 
典 。 相 关 短 语词 典 的 规模 达到 百 万 级 词 条 和 它们 的 相关 
短语 ， 其 来 源 主 要 有 两 部 分 : 一 部 分 是 人 工整 理 的 短语 
相关 知识 ; 另 一 部 分 是 通过 数据 挖掘 技术 ， 从 搜索 引擎 
查询 日 志 中 获取 的 相关 短语 。 这样 既 保证 了 词典 的 规模 ， 
又 保证 了 词典 的 质量 。 

如 何 定义 并 计算 短语 的 相关 性 是 个 很 有 挑战 性 的 问 
题 。 实验 证 明了 采用 语义 词典 和 短语 语法 结构 相 结 合 的 
方法 ,计算 短语 之 间 的 相关 性 ， 取 得 了 满意 的 效果 。 
3. 1 检索 结果 排序 

行业 搜索 的 检索 结果 排序 方法 是 研究 的 一 个 重点 。 
通用 搜索 引擎 采用 以 链接 分 析 为 主要 手段 的 排序 手段 ， 
行业 搜索 的 检索 结果 排序 需要 综合 考虑 网 页 内 容 的 相关 
性 (用 户 查 询 词 与 网 页 内 容 的 相关 度 ) 、 网 页 自身 的 重 
要 性 ( 链接 分 析 ) 以 及 时 效 性 。 
3. 2 内 容 相关 性 : 向 量 空间 模型 

传统 IR 技术 中 判断 查询 条 件 与 文档 的 内 容 相关 性 ， 
最 为 通用 的 方法 是 采用 向 量 空间 模型 ( VSM ) 进行 计算 。 

安全 生产 智能 语义 检索 将 综合 运用 相关 性 排序 、 网 
页 权重 、 时 间 权 重 等 多 种 排序 因素 , 获得 较 优 的 排序 结果 ， 
具体 排序 过 程 主要 基于 以 下 与 相关 度 相 关 的 因素 进行 。 
3. 3 内 容 相关 度 : 基于 传统 的 IR 排序 算法 

比如 TF-IDF，VSM， 计算 查询 条 件 与 网 页 的 内 容 相 
关 度 。 在 网 页 内 容 方面 ， 标 题 中 的 关键 词 、 黑 体 的 关键 
词 以 及 标题 中 出 现 的 关键 词 、 网 页 外 部 链接 的 销 文 本 等 ， 
比 网 页 本 身 内 容 具 有 更 高 的 权重 。 

文档 权重 : 主要 基于 链接 分 析 方 法 (如 PageRank ) 
计算 文档 的 权重 。 

时 间 权 重 : 按照 网 页 发 布 时 间 ( 如 果 获 取 不 到 发 布 
时 间 则 取 收 录 时 间 ) 计算 时 间 权 重 。 

结果 排序 算法 的 主要 流程 是 , 系统 依据 内 容 相 关 性 、 
文档 权重 、 时 间 权 重 ， 计 算 获 得 排序 结果 。 

以 上 大 数据 的 基础 、 技 术 和 应 用 为 大 数据 在 安全 生 
产 中 的 应 用 提供 了 方向 。 安 全 生产 基于 大 数据 技术 可 以 
做 到 安全 生产 检索 查询 即时 便捷 、 归 纳 分 析 系 统 科学 。 

通过 对 安全 生产 行业 相关 数据 采集 、 自 然 语言 处 理 、 
检索 ， 可 以 实现 资源 共享 、 内 容 创新 、 信 息 增 值 及 优质 服 
务 ; 通过 大 数据 技术 ， 逐步 打造 面向 “互联 网 +” 语 境 下 
的 现代 化 信息 系统 ， 能 够 充分 贯彻 《国务 院 办 公 厅 关于 加 
强 安全 生产 监管 执法 的 通知 》 的 精神 。 中 国安 全 生产 报社 
将 大 数据 技术 与 安全 生产 业务 相 结合 ， 为 安全 生产 领域 今 
后 的 进一步 改革 和 发 展 打下 坚实 的 技术 基础 。 早 
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